梯度下降:一种常用的优化方法,用来最小化函数(尤其是机器学习中的损失函数)。它通过计算当前点的梯度(导数方向),沿着梯度的反方向以一定步长(学习率)反复更新参数,从而逐步接近最小值。(该术语在不同领域也可能有更细分的变体与用法。)
/ˈɡreɪdiənt dɪˈsent/
Gradient descent helps the model learn by reducing the error step by step.
梯度下降通过一步步减少误差来帮助模型学习。
In deep learning, choosing a good learning rate is crucial because gradient descent can diverge or converge too slowly.
在深度学习中,选择合适的学习率很关键,因为梯度下降可能会发散或收敛得过慢。
gradient 来自拉丁语 gradī(“行走、步伐”)相关词根,表示“变化的坡度/斜率、梯度”;descent 来自拉丁语 descendere(“向下走”)。合在一起直译为“沿梯度向下走”,形象地表达了在“误差地形”上朝更低处移动以找到最小值的过程。